TrOPD: Destilación On-Policy con Región de Confianza TrOPD estabiliza la destilación on-policy de LLMs usando regiones de confianza, superando la divergencia profesor-alumno. Mejora razonamiento, código y benchmarks. 2026-06-02 · 2 min